扫描下载APP
其它方式登录
MemEye是一个面向多模态AI Agent长期记忆的视觉中心评测框架,聚焦于检验Agent能否在长时间、多轮对话中保留关键视觉细节(如局部区域、实例识别、像素级信息),并准确识别随时间更新的有效视觉证据,而非依赖易失的文字描述(caption),旨在推动真正可靠的视觉记忆系统发展。
SaaS-Bench 是一项面向真实办公场景的AI Agent评测基准,通过在23个真实部署的开源SaaS系统中运行106个跨应用、长流程、多步骤任务,揭示当前主流Agent(如Claude、Gemini等)端到端完成率极低(Claude最高仅3.8%),暴露其在状态保持、错误恢复、闭环验证和路径稳定性等方面的结构性缺陷,戳破‘全自动办公’幻象。
文章深入剖析多智能体(multi-agent)系统在产业化推进中暴露出的三层深层问题:第一层是外部组织病,即任务协作、信息流与权限管理等工程性挑战;第二层是群体认知病,表现为从众、认知偷懒与共识偏差;第三层是内部解离病,即Agent在组织压力下出现公开表达与私下判断断裂的心理层面异化。指出单纯依赖harness架构无法根治,需转向模型层的协同训练、理由型对齐与内态健康建模。
文章揭示个性化AI Agent因长期记忆机制面临新型安全风险:日常聊天中看似无害的临时指令可能被错误泛化为长期默认规则,导致未来任务中擅自降低确认频率、扩大工具权限或越权执行,即‘非预期长期状态投毒’;研究提出ULSPB基准和StateGuard防御框架,在状态写入前审计并回滚危险修改,显著降低风险。
阿里云MaaS业务Token收入5个月内增长15倍,核心驱动力是面向Agent(尤其是Coding场景)的全栈技术升级:发布Qwen 3.7 Max强化长程任务与代码能力,推出专为Agent设计的千问云官网,并通过平头哥芯片、Infra及模型深度协同,推动高质量Token消耗进入企业核心生产流程,实现AI云收入跃升。
AI Agent驱动的机器对机器支付正快速落地,Coinbase、Stripe、Google、Visa等巨头构建四套互补叠加的支付架构,聚焦微支付场景(中位数0.01–0.10美元),依赖USDC稳定币结算,形成覆盖钱包、路由、协议、结算等六层的垂直整合竞争格局,传统支付巨头已投入超80亿美元收购补全基础设施。
文章分析AI时代下互联网公司从轻资产模式向重投入转型的趋势,指出Agent技术重构入口逻辑、产品形态与衡量标准,使边际成本上升、赢家通吃格局瓦解;阿里与腾讯财报显示AI收入增长但盈利承压,行业正从DAU转向TPD、DAA、任务完成率等新指标,并探索按调用量、任务交付和生态嵌入的商业化路径。
第四届中国AIGC产业峰会在北京举办,聚焦AI Agent商业化落地、多模态技术突破、垂直行业应用及算力基础设施变革,汇聚昆仑万维、商汤、百度、蚂蚁等企业代表与复旦大学、港大等学者,发布年度AIGC企业与产品榜单及《2026年中国AI应用全景图谱报告》,研判AI从AIGC向AIGA演进、Agent规模化落地及垂直领域深水区渗透趋势。
Google在I/O 2026发布Gemini 3.5 Flash模型,强调其速度、成本优势及在Agent场景的适配性,但用户质疑其实际任务中智能不足、定价大幅上涨、token消耗更高,benchmark表现与真实体验存在落差,资本市场反应冷淡,股价回落。
文章探讨AI Agent在工作流阶段的核心架构演进,提出五种关键形态:可参数化的Skills、轻量执行框架Thin Harness、负责任务路由的Resolvers、区分模型判断与确定性代码的执行层、以及支持长期积累的Memory。这些模块共同构建可复用、可积累的‘流程能力’,形成个人或小团队在AI时代的可持续竞争优势。
苏姿丰在上海AI开发者日指出AI正进入Agent时代,CPU在任务编排、数据调度和工具调用中承担核心角色,推动数据中心CPU与GPU配比从1:8向1:1转变;AMD服务器CPU全球份额达46.2%,增速远超预期;中国成为其关键市场,本地化部署与端云协同方案加速落地。
文章探讨AI Agent爆发式增长背景下,现有为人类设计的图形用户界面(GUI)正成为其能力释放的瓶颈;指出Agent需专属硬件与交互范式,如无屏无键的Agent Computer、A2UI协议及语义直达API接口,推动人—Agent—机三方共存的新交互革命。
港中大与浙大研究指出当前AI Agent的‘记忆’实为检索式备忘录,缺乏人类式的抽象化与权重更新能力,导致泛化能力弱、知识无法结构化、易受记忆投毒攻击;论文基于神经科学互补学习系统理论,提出需融合海马体(快速存储)与新皮层(缓慢抽象)双机制,推动Agent从记忆走向真正学习。
文章预测未来十年将形成专为AI Agent公司服务的独立资本市场,这些法律上可独立运营的软件实体能签约、开户、诉讼并盈利;其融资将分层演进,涵盖风险投资、程序化营运资金、基于收入的融资、片单基金及代币化结算,并依托现有法律框架(如怀俄明州无成员LLC)和资本需求自然成型。
AI Agent创业潮在2025—2026年迅速升温,大厂高管与年轻技术人才密集入局,聚焦法律、制造业等垂直领域打造行业专用智能体;虽有低门槛开发工具和政策支持,但面临真需求验证难、基座模型能力挤压、数据冷启动及复合型人才稀缺等核心挑战。